在研究两个随机变量 $X, Y$ 时, $X$ 与 $Y$ 之间存在相关性, 设 $Y$ 是因变量, $X$ 是自变量, $$Y=\alpha+\beta X+\varepsilon$$ 这里, $\varepsilon$ 是随机误差, 服从正态分布。回归系数 $\alpha 、 \beta$ 分别称为回归直线方程的截距和斜率, 可以根据样本数据进行估计, 根据样本数据拟合的曲线方程可表示为 $\hat{y}=a+b x$ 。应用最 小二乘法来估计系数 $a, b$, 使测量值 $y$ 与回归预测值 $\hat{y}$ 之间的差值的平方和最小。做回归分析时要求误差项满足独立性、方差齐性和正态性。

在R语言中使用 lm()函数进行回归分析, lm()(linear model)代表了线性模型, 该函数可 以用于实现简单回归分析, 多元回归分析和方差分析。 lm()函数的基本语法格式为: lm (formula, data, subset, weights, na, action, method = "qr", model = TRUE, x=FALSE, y=FALSE, qr=TRUE, singular,ok=TRUE, contrasts = NULL, offset, $\cdots$ )

例 一元回归分析示例,生成随机数据集,对变量 $x, y$ 进行回归分析。

x <- rnorm(20,4,1)
y <- 2*x+rnorm(20)
lm.xy  <- lm(formula = y~x)
summary(lm.xy)

结果

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.6436 -0.4972  0.1291  0.5099  2.0471 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.0514     0.8030   2.555   0.0199 *  
x             1.4177     0.2107   6.730 2.62e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9198 on 18 degrees of freedom
Multiple R-squared:  0.7156,    Adjusted R-squared:  0.6998 
F-statistic: 45.29 on 1 and 18 DF,  p-value: 2.618e-06

在例 中, $x$ 服从 $N(4,1)$ 正态分布, $y$ 值是 $x$ 值乘以 2 再加上服从 $N(0,1)$ 的随机数 而生成。使用函数 $\operatorname{lm}$ (进行线性回归分析得到回归方程 $y=1.4177 x+2.0514$ 。 lm()函数返回类的对象,使用 summary (lm.xy)可以得到回归系数斜率和截距的估计值、标准误、总体参数的假设检验 $t$ 值和 $p$ 值, 以及反映拟合程度的 $R^2$ 和校正 $R^2$ 值. $R^2$ 反映了因变量 $y$ 的方差中可以用自变量 $x$ 解释的比例, 最后给出了对回归方程 进行方差分析的结果, 方差分析的统计量 $F=19.66, p$ 值为 $0.0003208$, 在统计学上具有极 显著性, 该 $p$ 值与对这两个变量进行cor.test()分析的结果相同。

回归分析的结果与样本的选择有关, 有些样本点对结果的影响很大, 也可能存在异常点, 这些具体问题在使用时应该给予关注。

摘自: